GraphPad Prism 统计教程：简单线性回归原理_Graphpad Prism_统计与绘图_实用技巧

在GraphPad官方用户指南里，对“线性回归”的简单入门讲解，包括了五个部分：

线性回归的目标是什么？
其计算原理是什么？
经常会混淆线性回归和相关性，它们有什么不同？
线性回归只是非线性回归的特例，它们有什么不同？
线性回归有时用于转换的数据，以分析Scatchard、Lineweaver-Burke和类似曲线图，为什么这不是用于分析数据的良好方法？

No.1

线性回归的目标

1. 什么是线性回归？

线性回归使用该模型拟合数据：

下载 (2).jpeg

下载 (3).jpeg

斜率量化了这条线的陡度。其等于X的每单位变化对应的Y的变化，以Y轴的单位除以X轴的单位来表示。如果斜率为正，则Y随着X的增加而增加。如果斜率为负，则Y随着X的增加而减小。X=0时，Y截距是直线的Y值。其定义了线的高程。

注：“线性回归”不同于“相关性”。线性回归能够找出根据X预测Y的最佳直线，而相关性不能拟合通过数据点的直线。

2. 简单线性回归与多元线性回归

上面显示了简单线性回归。仅有一个X变量。相比之下，多元线性回归将Y定义为包含几个X变量的函数。更宽泛地说，还有其他类型的关系，例如使用多个X变量来描述一个Y变量。这些方法统称为多元回归（多元线性回归是多元回归的一种）。

3. 线性回归与逻辑回归

在简单线性回归中，因变量（Y）是连续的，这意味着它可采用任何范围的值。在某些情况下，Y变量可能不连续。例如，如果Y变量只能是两个值中的一个（例如，是或否，头或尾，雄性或雌性老鼠等等），则其就是一个二元分类变量。在此情况下，线性回归则不太合适。相反，你可以考虑使用逻辑回归，它模拟观察给定结果的概率（有时称为“成功”）。像线性回归一样，逻辑回归可有一个或多个X变量。

No.2

线性回归工作原理

1. 线性回归工作原理：最小化平方和

线性回归的目的是调整斜率和截距的值，以便从X中找到最佳预测Y的直线。更准确地说，回归的目标是最小化点到直线的垂直距离的平方和。为何要最小化距离的平方和？为何不简单地最小化实际距离的总和？

如果随机散布服从高斯分布，则其具有两个中等大小的偏差（例如，每个偏差5个单位）比具有一个小偏差（1个单位）和一个大偏差（9个单位）的可能性更高。最小化距离绝对值总和的程序将不会优于一条距离两点5个单位的直线以及一条距离其中一点1个单位且距离另一点9个单位的直线。在所有情况下，距离的总和（更准确地说，距离绝对值总和）为10个单位。最小化距离平方和的程序更倾向于距离两点5个单位（平方和=50），而非距离其中一点1个单位，且距离另一个点9个单位（平方和=82）。如果散布服从高斯分布（或者接近高斯分布），则通过最小化平方和确定的直线最有可能是正确的。

将计算显示在每本统计学书中，且这些计算完全标准。

2. 关于“回归”

类似于其他许多统计术语，“回归”一词在统计学中的使用与在其他上下文中的使用似乎有所不同。该方法首先被用于检验父子身高之间的关系。当然，这两者存在相关性，但斜率小于1.0。高个子父亲的儿子往往比父亲矮；矮个子父亲的儿子往往比父亲高。儿子的身高回归到平均值。“回归”一词现在用于多种曲线拟合。

No.3

比较线性回归与相关性

☆ 线性回归不同于相关性。

1. 二者的目的是什么？

线性回归能够找出根据X预测Y的最佳直线。

相关性量化两个变量的关联程度。相关性不能拟合通过数据点的直线。您只是在计算相关系数（r），该系数可告知您一个变量随另一个变量的变化。r为0.0时，无相关性。r为正值时，一个变量随另一个变量升高而升高。r为负值时，一个变量随另一个变量下降而升高。

2. 二者适用于哪种数据？

X为操纵的变量（时间、浓度等）时，通常使用线性回归。

测量两个变量时，几乎总会用到相关性。如果一个变量是您通过试验操纵的变量，则其很少适用。

3. 哪个变量为X？哪个为Y？是否存在差异？

在回归中决定将哪个变量称为“X”，哪个变量称为“Y”很重要，因为如果这两个变量互换，将得到一条不同的最佳拟合线。根据X预测Y的最佳拟合线与根据Y预测X的最佳拟合线不同（然而，这两条线具有相同的R²值）。

通过相关性，您无需考虑因果关系。这两个变量中的哪一个为“X”，哪一称为“Y”并不重要。如果将两者互换，得到的相关系数相同。

4. 假设

通过线性回归，X值可测量或X值可以为试验者控制的变量。不假设X值是从高斯分布中抽样。假设点到最佳拟合线的距离服从高斯分布，散点的SD与X或Y值无关。

相关系数本身只是描述两个变量如何一起变化的一种方式，因此可针对任何两个变量进行计算和解读。但进一步推理需另外假设X和Y均已测量（为区间或比率变量），两者均从高斯分布中抽样获得。这称为“二元高斯分布”。如果这些假设为真，则可解读r和P值的置信区间，r和P值能够检验零假设 - 两个变量之间实际上并无相关性（且您所观察到的任何相关性均为随机抽样的结果）。

5. 各结果之间的关系

线性回归使用r²量化拟合优度，有时用大写字母R²表示。如果将相同数据放入相关性（这很不合适；见上文），则基于相关性的r²等于基于回归的r²。

相关性计算皮尔森相关系数-r的值，范围为-1到+1。

No.4

比较线性回归与非线性回归

1. 线性和非线性回归的目的

直线由一个简单的方程描述，可根据X、斜率和截距计算Y。线性回归的目的在于找到定义最接近数据的直线的斜率和截距值。

非线性回归比线性回归更通用，可使任何模型（方程）拟合您的数据，其将查找一系列参数值，即生成曲线（与数据最接近）的那些参数。

2. 线性和非线性回归的工作原理

线性和非线性回归均可找到使直线或曲线尽可能接近数据的参数值（线性回归的斜率和截距）。更准确地说，旨在尽量减少点到直线或曲线的垂直距离的平方和。

线性回归使用可用初等代数完全解释的数学运算来实现该目的（许多统计学书籍中的显示）。输入数据，答案就出来了，不会出现模棱两可。如果您愿意，甚至可手动计算。

非线性回归使用计算量比较大的，迭代方法这只能用微积分和矩阵代数进行解释，该方法需要每项参数的初始估计值。

3. 线性回归是非线性回归的特例

非线性回归程序可拟合任何模型（包括线性模型）。线性回归只是非线性回归的特例。

即使您的目的是使用数据中拟合一条直线，也有许多情况选择非线性回归而非线性回归的选择。

使用非线性回归分析数据只比使用线性回归稍微难一点。您对线性或非线性回归的选择应基于您所拟合的模型。不得仅仅为避免使用非线性回归而使用线性回归。避免过多转换，例如Scatchard或Lineweaver-Burke转换，其唯一目的是线性化您的数据。

No.5

避免变换

☆ 这是给大家的建议：避免Scatchard、Lineweaver-Burke和类似变换。

在用线性回归分析数据前，停下来问问自己，用非线性回归拟合数据是否更为合理。如果已变换非线性数据，以便创建线性关系，则几乎可以肯定，使用非线性回归拟合原始数据会更好。

在非线性回归可随时获得前，分析非线性数据的最好方法是变换数据，以便创建线性图，然后用线性回归分析变换数据。示例包括酶动力学数据的Lineweaver-Burke图、结合数据的Scatchard图和动力学数据的对数图。

☆ 这些方法已经过时，不得用于分析数据。

这些方法存在的问题是，变换会扭曲实验误差。线性回归假设线条周围的点散布遵循高斯分布，且每个X值处的标准偏差均相同。这些假设在变换数据后很少正确。此外，有些变换改变了X与Y之间的关系。例如，在Scatchard图中，使用X（束缚）值来计算Y（束缚/自由），这违反了线性回归的假设，即所有不确定性均在Y中，而X已清楚地知道。如果在X和Y两个方向上出现相同的实验误差，则最小化点与线之间的垂直距离的平方和是不合理的。

由于违反线性回归的假设，因此从回归线的斜率和截距导出的值不能最准确确定模型中的变量。考虑到您在收集数据方面投入的所有时间和精力，您意欲使用最好技术来分析数据。非线性回归所得结果最为准确。

下图显示了变换数据的问题。左半部分显示了遵循直角双曲线（结合等温线）的数据。右半部分是相同数据的Scatchard图。左侧实线由非线性回归确定。右侧实线显示了同一条曲线经Scatchard变换后的形状。虚线表示变换数据的线性回归拟合。Scatchard图可用于确定受体数量（Bmax，确定为线性回归线的X截距）和解离常数（Kd，确定为斜率的负倒数）。由于Scatchard变换放大并扭曲了散布，因此线性回归拟合不能产生最准确的Bmax 和Kd值。

下载 (4).jpeg

不得仅仅为避免使用非线性回归而使用线性回归，用非线性回归拟合曲线并不难。

尽管通常不适合分析变换数据，但有助于在线性变换后显示数据。许多人发现直观解读变换数据更加容易。这样具有一定合理性，因为人眼和大脑进化到可检测边缘（线），而非检测直角双曲线或指数衰减曲线。即使使用非线性回归分析数据，显示线性变换的结果也是合理的。

科研星球

GraphPad Prism 统计教程：简单线性回归原理

标签